首页> 外文OA文献 >Local prediction and classification techniques for machine learning and data mining
【2h】

Local prediction and classification techniques for machine learning and data mining

机译:机器学习和数据挖掘的局部预测和分类技术

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

A variety of conditional probability models estimate the regression or class probability function for the purpose of prediction or classification. Bayesian mixture models provide flexible prediction and classification methods for modeling local linearities of the regression or class probability function. A hierarchical Bayes Gaussian mixture model is proposed that directly uses data to define a mixture prior for its Gaussian mixture component parameters.This nonparametric Bayesian mixture model uses the stick-breaking construction of a Dirichlet process model. Prediction and classification comes directly from the posterior distribution via Gibbs sampling. Comprehensive simulation studies demonstrate performance of both the regression and classification methods. Five standard machine learning data sets show prediction and classification results competitive with local methods. A generic classification algorithm is outlined given categorical predictors. If too many categories are present or if many interaction levels affect the class probability function, no current methods can reduce bias effectively. A proposed solution is a generic way to characterize the information about the class probability function available in the predictors through likelihood ratio statistics. This proposed classifier relies on random forests to reduce bias by utilizing all information in the generated log likelihood ratio features. A simulation study and an application data set demonstrate potential advantages of this classification method for categorical predictors.
机译:为了进行预测或分类,各种条件概率模型估计回归或类概率函数。贝叶斯混合模型为建模回归或类概率函数的局部线性提供了灵活的预测和分类方法。提出了一个分层的贝叶斯高斯混合模型,该模型直接使用数据先定义混合物的高斯混合成分参数,该非参数贝叶斯混合模型使用Dirichlet过程模型的不折不扣构造。预测和分类直接来自通过吉布斯采样的后验分布。全面的模拟研究证明了回归和分类方法的性能。五个标准的机器学习数据集显示了与本地方法相比具有竞争力的预测和分类结果。给定了分类预测器,概述了通用分类算法。如果存在太多类别,或者如果许多交互级别影响类别概率函数,则当前方法无法有效减少偏差。提出的解决方案是一种通过似然比统计来表征有关预测变量中可用的类概率函数的信息的通用方法。提出的分类器依靠随机森林来减少偏差,方法是利用生成的对数似然比特征中的所有信息。仿真研究和应用数据集证明了该分类方法用于分类预测变量的潜在优势。

著录项

  • 作者

    Lanker, Cory Lee;

  • 作者单位
  • 年度 2015
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号